查看原文
其他

过往,不负韶华,未来,惟有奋斗——AI Lab三年总结和未来规划

58同城AI Lab 58AILab 2022-03-15

2021年1月28日下午,58同城TEG技术工程平台群AI Lab举办了2020年年终总结会,总结了2020年,展望了2021年。

AI Lab三年回顾和2021年规划

AI Lab负责人詹坤林回顾了AI Lab过去三年的工作,展望了2021年的规划,并总结了团队人才建设和技术影响力建设方面的进展。
2018年1月,58同城CTO邢宏宇提出了“云化系统、雾化智能、加速创新”三年的技术规划,"雾化智能"即全面落地AI技术,让AI技术像雾一样渗透到各个系统和模块,使得整个业务更加智能化。AI Lab正是在这样的大背景下于2018年5月21日在TEG组织架构升级发文中正式宣告成立,2020年正是三年技术规划的最后一年,詹坤林首先回顾了AI Lab过去三年间的工作。
在这三年里,AI Lab深刻践行雾化智能,建设了较完备的AI中台,赋能了各前台业务。总结AI中台构建之路如下图所示:首先构建了底层基础计算平台,提供计算资源管理,支持各类机器学习框架,然后针对不同AI算法方向,构建了中层算法应用平台,包括在搜索推荐等场景下的排序学习平台、NLP场景下的自然语言处理算法平台WubaNLP、图像场景下的图像算法平台“凤凰”(该平台为58技术委员会协同共建项目,底层由我们的基础计算平台做支持),这些基础平台我们统称为WPAI(Wuba Platform of AI)。基于WPAI之上我们构建了各类上层AI应用平台,包括文本对话平台、语音交互平台、语音分析平台“灵犀”、智能写稿平台,我们将这些AI应用平台应用在58各个业务场景下,打造了各类AI应用,如智能客服、商家智能聊天助手、语音助手、招聘面试机器人、呼叫中心语音质检系统等等。此外,WPAI还支撑了58同城内各部门的搜索、推荐、广告、风控等系统。

AI中台架构图

回顾这三年,每个时间段AI Lab都有很大的变化:

  • AI萌芽期。2017年属于AI萌芽期,AI Lab前身智能推荐部负责了房产、车、APP首页推荐相关工作,于9月开始研发WPAI排序学习平台,应用于推荐系统,并在同期开始参与“帮帮”智能客服系统的研发,进入AI时代。

  • 2018年。帮帮智能客服在集团全面落地,高峰时期折合节约客服人力超过500人。10月上线智能语音机器人。WPAI支持各类深度学习框架,在集团推广落地,GPU卡规模超过100张。智能写稿机器人上线,应用于公关写稿场景。智能客服&语音机器人联合团队于本年获得了公司优秀团队奖。

  • 2019年。语音机器人在全集团推广,在销售、客服、产品运营各场景广泛使用。将智能客服应用于C端用户和B端商家IM在线沟通场景,打造智能客服商家版——帮帮商家版,在房产、车等场景接入上线。上线智能语音质检系统,接入呼叫中心销售、客服全量录音质检。WPAI 平台全集团广泛使用,GPU卡规模超过200张,CPU节点超过100台,并上线向量检索平台 vSearch。值得一提的是,2019年3月,AI Lab不再负责推荐相关工作,全力聚焦于AI。

  • 2020年。自主研发语音识别引擎上线,支持离线语音识别、流式语音识别,效果超越第三方采购商,全量切换为自研引擎,节约采买成本。智能语音质检系统升级为“灵犀”智能语音分析平台,接入58平台C端用户和B端商家沟通场景语音,与业务一起打造各类智能语音应用;在CRM(客户关系管理系统)销售场景下,助力呼叫中心健康生态保障。语音机器人在业务场景发挥价值,上线招聘面试机器人(神奇面试间),在销售商机智能外呼场景初步探索落地。智能写稿机器人应用于58部落内容社区,机器人文章贡献众多点击量。帮帮商家版在黄页微聊代运营场景发挥价值,打造黄页商家智能聊天助手,提升B端商家获客效率、减少代运营人工客服。CRM商机智能分配系统在黄页业务线直销、电销场景上线,利用机器学习和推荐技术有效提高销售工作效率。WPAI平台持续升级,58各业务部门也全面落地AI,GPU卡规模超过400张,CPU节点超过200台,并上线WubaNLP自然语言处理算法平台,支持技术委员会共建项目凤凰图像算法平台。此外,发布了qa_matchdl_inference 两款开源项目,并联合技术委员会组织举办面向外界的首届58同城AI算法大赛

2020年,58同城完成了私有化,未来将走向产业互联网的道路,全面拥抱产业化,在58主要领域里,努力成为全球第一家完成产业化升级的分类信息平台。产业化即把整个业务链条所有的信息流程全部在线化、数字化,并且能够无缝地将上下游协同起来。与此同时,还需要提供客户需要的所有服务,让客户在房产、汽车、招聘、本地服务等领域都能有更高的效率。
2021年,是58同城产业化元年,各个前台业务将会有很多的升级,作为AI中台部门,AI Lab将在助力业务产业化升级、提升内部销售工作效率和持续深耕基础技术平台跟进业界前沿三方面开展工作。在助力业务产业化升级上,联合业务方持续优化和拓展商家智能聊天助手、面试机器人、语音分析等应用;在提升内部销售工作效率上,持续推进AI技术在CRM中各模块的应用;在基础技术平台上,WPAI持续跟进业界前沿,优化升级,语音技术持续优化,并打造新能力。

我们如何能在未来将工作开展得更好,詹坤林发表了看法。首先需要以58企业价值观为基石,尤其需要注意用户第一和开放协作,用户第一是根本,保持开放协作心态能让中台和前台业务合作更加顺畅。在我们本职工作中,需要深刻践行58工程师文化——敏捷迭代、持续重构、追求卓越,将每个系统做到极致。在前台业务落地AI应用时,需要做到深扎业务,前台业务会深入产业一线,形成新的需求,而我们中台需要深度扎进业务,全面了解各个业务逻辑,积极落地技术去解决问题。

在团队人才建设上,AI Lab三年来逐步扩充了团队,打造了一支具备强战斗力的队伍。
  • 2018年1月,团队共14人,包括1名T8、1名T7、3名 T6,全为2017年内部晋升。

  • 2019年1月,团队共25人,包括1名T8、1名 T7、4名 T6,其中内部晋升1名T7、1名T6。

  • 2020年1月,团队共37人,包括1名T9、1名 T8、4名 T7、5名T6,其中内部晋升1名T9、2名 T7、4名 T6,并社招1名 T7、 1名 T8。

  • 2020年,团队共60人,通过人才招聘净增长4人,通过架构调整净增长19人。在内部人才培养中,AI Lab培养了多名高职级产品技术人员,成功晋级2名T8、1名T7、6名T6、1名P6,目前团队包括1名T9、3名T8、3名T7、13名T6。部门高职级人才几乎全为内部培养,均是伴随着AI Lab的发展成长起来,未来将继续加强人才培养,并持续引进优质人才。

在技术影响力建设上,2020年AI Lab参加外部技术大会6次,举办和参加对外技术沙龙11次(具体可参见年度回顾 | 58同城 AI Lab 2020年对外技术交流总结),在58技术公众号上共发表AI技术文章28篇,共获得了1.53万次阅读,部分优质文章由DataFunTalk、AICUG、语音杂谈公众号首发或转载,共获得了1.52万次阅读。此外,我们也运营了58AILab公众号,共计发布原创、转载文章65篇,共获得1.92万次阅读。此外,2020年还发布了qa_matchdl_inference两款开源项目,配合技术委员会组织了AI算法大赛,在打造部门技术影响力上取得了不错成绩。2021年,AI Lab将继续大力宣传部门技术,计划在58技术公众号发布40篇文章,并新增发布两款开源项目。

征途漫漫,惟有奋斗,未来AI Lab将继续努力!

演讲结束后进入抽奖环节,奖品为机械键盘和智能手环,由詹坤林进行了抽奖,并进行了颁奖。

抽奖结束后进入游戏环节,游戏奖品为电热水壶,经过激烈角逐后唐楠烊获得第一名,由詹坤林为其颁奖。

基础算法部总结规划

周维介绍了基础算法部2020年在算法上的主要工作。首先,介绍了语音识别系统中各算法模块从开始调研到效果稳定的整个迭代过程。语音识别系统主要模块可以分为语音活性检测(VAD)、说话人分离(Speaker Diarizition,SD)、语音识别(ASR)和后处理模块。VAD和SD从冷启动阶段的webrtcVAD + IVector迭代到深度学习版本,可以更加有效的过滤噪声和机器回声,同时精准的区分录音中的说话人,使用分段延时预测、状态保留等方式,在保证效果不变的情况下降低了VAD预测耗时,提高服务的实时性。
58场景下的语音识别任务面临着场景多、环境复杂和口音复杂等挑战,因此基础算法部开发了标注系统,积累了大量场景数据;并基于Kaldi框架的ChainModel进行了模型结构、特征计算等大量实验,开发了G2P服务并借助新词发现算法构造了业务发音词典,利用噪声分析、谱增强等方法提高模型复杂环境下的鲁棒性,利用语言模型插值、数据扩充、重打分等方法优化不同业务场景下的识别效果,最后实现了标点识别的后处理服务,增加了识别结果的可读性,最终各场景字准率均超过了第三方服务,达到了较高的水平。此外,基础算法部实验了多种端到端语音识别方案,其中基于ESPNet实现的Transformer+CTC的方法整体字准率达到最优,通过实现批量解码、下采样、辅助对齐等方法使端到端解码效率绝对提升60倍。
王焱介绍了基础算法部2020年在工程架构上的主要工作。介绍了语音识别引擎的整体架构,以及迭代、优化的过程。语音识别引擎主要包括语音文件转写服务、实时语音转写服务。语音文件转写服务,包括预处理服务、语音解析服务和语音解码服务。语音文件转写服务,经过一轮迭代,将语音解析服务中的音频转换、语音活性检测(VAD)、说话人分离(Speaker Diarizition,SD)拆分为独立的服务,部署到WPAI人工智能平台上,便于模型扩展、效果迭代优化,以更准确的截取说话人片段信息。语音文件转写服务,目前已接入多个业务线,包含呼叫中心的销售、客服场景,以及隐私通话场景,年均处理数百万小时的音频数据。
实时语音服务,包含客户端sdk、实时语音接入服务和实时解码服务。实时解码服务上,基础算法部进行了一系列优化,提高了解码并发能力、保证了服务可用性。基础算法部将kaldi开源框架的解码器服务化为多路并发的解码器,通过优化解码器参数降低解码网络搜索规模、优化解码器搜索路径方式降低搜索耗时、优化操作内存的方式降低内存操作耗时,将实时解码的并发数提升到和物理CPU核数相当,也降低了获取最终转写结果的耗时(567ms->97ms);在中间结果获取耗时上,通过优化lattice路径搜索,降低了中间结果的耗时(104ms—>18ms)。在实时语音接入服务上,通过优化代码逻辑和GC参数,降低了服务端耗时(平均降低300ms+),同时定位排查了服务端丢包、延迟包问题,保证了服务的稳定。客户端sdk上,我们实现和推动了Java/IOS/Andriod三个版本sdk的落地,同时解决了客户端调用时丢包、重复包等问题,也通过问题排查也降低了sdk的调用耗时(平均降低300ms+)。实时语音服务,已在AI神奇面试间、智能外呼场景替代第三方技术。
演讲结束后进入抽奖环节,奖品为拍立得和空气炸锅,由周维进行抽奖,并进行了颁奖。

抽奖结束后进入游戏环节,游戏奖品为颈椎按摩仪,经过激烈角逐后刘晟源获得第一名,由王焱为其颁奖。

智能语音部总结规划

智能语音部负责人李忠首先对语音机器人的功能扩展进行总结,实现了从智能外呼到语音交互平台的升级,语音机器人从原有的电话通信的语音交互基础上,扩展到了能支持通过网络音频通信实现语音对话交互,一方面基于电话通信的语音交互对原有功能进行升级完善,从支持语音电话呼出,到支持语音电话呼入(用户主动拨打某个号码由机器人进行接听)、电话顺振(用户A拨打用户B,用户B长时间未接听后可由机器人接起A的通话)、电话转人工(一是支持呼出场景: 机器外呼用户,用户接通后与机器对话,然后可转接至人工座席; 二是支持呼入场景: 用户呼入后,机器接起后可以转人工),并在业务进行了尝试,2020年全年共服务了几千万外呼请求,在外呼线索挖掘上为业务创造上百万的营收;另一方面基于网络音频的语音交互能力落地到了招聘智能面试产品-神奇面试间上,有效地提升了招聘企业招聘效率,降低了招聘企业在疫情环境下招聘成本,全年累计服务上百万次用户的面试请求。

其次对灵犀智能语音分析平台的工作进行总结,灵犀平台对语音分析能力进行高度抽象化支持通用语音处理能力如性别识别、情绪检测等,通用语音语义标签挖掘能力如辱骂、要电话等,特定业务语音语义标签挖掘如来电需求分析、房源状态识别等,同时为支持业务高效快速接入语音分析需求,灵犀平台打造了自定义标签功能,业务可通过像搭积木一样生成自己想要的语音语义标签,全年业务分析场景增加到二十多个,累计分析语音上亿条; 同时平台还深入与业务合作,在招聘、租房、二手车、二手房、商业地产等多个业务场景应用中取得显著的成绩。

最后对智能写稿在58部落应用进行了总结,智能写稿在部落共落地应用8个写作场景,充分利用了结构化数据+模板相结合, 相似内容进行聚合的二次创作方式全年共为部落创作百万级文章,带来点击上千万次。

未来智能语音部将持续在智能语音交互、智能语音分析、智能写稿上面深耕细做,探索更多的业务应用如智能外呼营销的深度应用落地,智能语音分析在用户治理、帖子治理深度应用从而助力业务提升连接质量,智能写稿紧跟前沿技术实现更加智能的稿件创作方法,为业务提供高质量、多元化的智能创作能力。

讲结束后进入抽奖环节,奖品为降噪耳机和移动硬盘,由李忠行抽奖,并进行了颁奖。

抽奖结束后进入游戏环节,游戏奖品为早餐机,经过激烈角逐后沈经敏获得第一名,由李忠为其颁奖。

智能问答部总结规划

智能问答部负责人韩伟总结了2020年主要工作,2020年智能问答部专注于如何利用智能问答和推荐技术提升前台业务价值,在帮帮商家版、CRM商机智能分配和帮帮智能客服业务上取得了进展。
首先是帮帮商家版,帮帮商家版定位于58同城C端用户和B端商家IM微聊沟通场景,2020年智能问答部聚焦在AI商机转化能力的提升上,结合策略与算法改进,进行了深入优化。在黄页微聊代运营场景中,利用AI对话机器人代替B端商家同C端用户沟通,以解答业务咨询,同时引导出商机给到商家,最终成单,AI一方面通过预训练模型+检索式回答提升智能问答效果,另一方面增加新的商机识别类型,同时深度优化了各类目多轮话术,并增加了智能商机主动催留能力,最终AI商机转化率达到人工客服的85%水平,另外,智能问答部在强化学习上也进行了探索,团队利用深度强化学习算法模拟人工客服的对话逻辑,在部分类目上商机转化率有效提升,后续会持续进行优化;在58速聘业务中,利用AI对话机器人与求职者进行沟通,一方面回复用户问题,同时通过主动对话,AI理解用户求职意向,高求职意向的用户直接进行简历投递,从而提高了IM中的简历投递转化,增加简历投递量,通过持续优化速聘求职意图模型,AI投递量占比大大提升;在优信二手车大客户场景中,通过AI对话机器人的商机引导和商机挖掘功能实现了日常获客流程自动化,大大降低了获取商机成本,并且将这些商机向二手车进行售卖,2020年为集团带来了超过千万的收入。
然后介绍了CRM商机智能分配项目,CRM系统会为销售人员分配商家信息,然后销售跟进最终将该商家转化为58付费会员,针对CRM系统中原始分配方法存在的优化目标不直接和未充分利用销售人员特征这两个问题,智能问答部实现了整套基于机器学习模型的商机智能分配流程,利用AI升级了商机分配逻辑,为每个销售人员分配适合其跟进的商机,从而提升了销售人效,最终在实际业务领场景取得了显著收益,具体可参见:AI + CRM 提高企业的 "绩" 和 "效"
再次,帮帮智能客服持续扩量,2020年为更多场景提供了支持,全年共新增接入9个业务线,包含75个场景入口。通过探索落地主动学习与上下文问答技术,升级接入平台,引入自主标注及标注质检、自学习、自训练功能。
此外,部门的技术影响力提升初见成效。积极参与AI Lab开源项目,qa_match项目已取得226个star与51次folk,同时通过参与举办AI大赛,团队影响力也得以提升。
最后,韩伟展望了智能问答部的新年目标。团队将针对帮帮商家版、CRM商机智能分配与帮帮智能客服工作集中发力,以极致提效、深化影响为目标,覆盖更多目标用户,发挥出AI的最大业务价值。
演讲结束后进入抽奖环节,奖品为Kindle、降噪耳机和投影仪,由韩伟进行抽奖,并进行了颁奖。

抽奖结束后进入游戏环节,经过激烈角逐后高正建获得第一名,由韩伟为其颁奖。

AI平台部总结规划

AI平台部负责人陈兴振分享了AI平台部2020年过去一年主要的工作,首先是回顾了AI算法平台WPAI三年来的演进历程。WPAI平台从2018年初开始大力研发,从基础计算平台做起,再到上层算法应用平台和AI周围子系统,在3年时间里,构建了稳定的深度学习平台,上线了排序学习平台、WubaNLP算法平台,共建了凤凰图像算法平台,打造了vSearch向量检索平台。平台规模从最初的3台机器6张GPU卡的测试环境发展到现在几百张GPU卡,覆盖集团所有算法部门,训练模型数超过4千,深度学习推理流量每天十几亿。
其次从基础计算平台、算法应用平台、AI周围子系统三个方向进行了详细的工作汇报。如在GPU资源管理上,通过小流量模型GPU推理混合部署和引入GPU虚拟化技术将推理在用卡GPU使用率提升150%,节省的GPU资源有效支撑了集团VR、语音识别等任务的灵活资源分配;在模型推理加速上,进一步实现了TritonInference Server和OpenVINO推理,让更多的模型能享受到加速效果;在算法应用平台上,对NLP领域三大常见任务文本分类、序列标注、文本匹配进行封装,发布了WubaNLP算法平台;在AI周围子系统上,持续优化了vSearch向量检索平台并推广应用,vSearch线上日均流量从200万增长到上亿。
最后对未来进行了展望,2021年WPAI在资源管理上将持续优化,进一步提升平台GPU使用率,在扩展平台现有功能,优化平台性能的同时探索和落地新的前沿技术,提升WPAI平台影响力。
演讲结束后进入抽奖环节,奖品为无人机,由陈兴振进行抽奖,并进行了颁奖。

58编程大赛获奖者颁奖

2020年12月,AI Lab选手在58同城第六届编程大赛中获得冠、亚、季军奖(喜讯!AI Lab选手在58同城第六届编程大赛中获冠、亚、季军奖!),为了表彰选手们的优异成绩,并激励更多人参加编程大赛,詹坤林为他们颁发AI Lab的内部奖励,奖品为移动硬盘、降噪耳机。

AI Lab技术宣传官颁奖

AI Lab技术宣传官为各部门校招生或新入职人员,由各部门负责人举荐,自愿参加,主要负责部门沙龙组织、AI Lab微信公众号运营等工作,2020年10位技术宣传官共组织分享75次内部技术沙龙,所有分享内容均录像沉淀在分享平台,加强了部门间的技术交流。为了表彰技术宣传官们在2020年的付出,詹坤林为技术宣传官们颁发了奖品,奖品为礼品卡和特别制作的证书。

技术宣传官证书:

AI Lab技术宣传先锋颁奖

AI Lab在2019年设立了技术宣传先锋奖,奖励在部门技术宣传中表现突出的同学,王勇和贺睿获得了2020年技术宣传先锋奖,詹坤林进行了颁奖,奖品是荣誉证书、特制奖杯和Kindle。

王勇获得了技术宣传先锋奖一等奖,2020年在58技术上发文4篇,其中一作2篇,二作2篇,此外,王勇是开源项目qa_match的关键贡献者。王勇获奖后表示“发表技术文章不仅仅是写文章,而是在写作过程中,将自己落地新技术解决实际生产环境中问题的思路、方法、总结沉淀下来。通过这种不断总结、沉淀,最终形成解决问题的方法论,不断提升个人的技术能力。”

贺睿获得技术宣传先锋奖二等奖,2020年在58技术上发文4篇,其中一作3篇,二作1篇。此外,贺睿是开源项目qa_match的关键贡献者、首届58AI算法大赛的主要组织者。贺睿在获奖感言中说道“本次获奖离不开部门领导指导、内审以及法务同学的审核,脱不了运营同学的协助,这个奖是对AI大赛和开源项目宣传效果的肯定,也是对我个人的激励,牛年里希望能发布牛气一些的宣传文章。”

技术委员会开源项目先锋奖颁奖

2020年,AI Lab布了qa_matchdl_inference两款开源项目,在58开源项目中获得了优异的表现,star、fork数排在前列,两个项目都获得58技术委员会开源先锋奖,詹坤林为这两个项目团队进行了颁奖。

最后,年会筹备组颁发了阳光普照奖,为AI Lab特别订做的茶杯,祝未来更好!

特别感谢年会筹备组

特别感谢年会筹备组的辛苦付出,保证了2020年AI Lab年会的顺利进行。感谢以下人员:主持人:韩雨、高正建;礼仪:宋玉美、沈经敏、李咏泽;财务支持:宋玉美、李咏泽;技术支持:封宇;摄影&编辑:杨森。

年会筹备组人员合影

现场部分照片

部门合影:

布置会场:

直播准备:

认真聆听:

文章编辑:杨森、詹坤林 于2021年1月28日



部门简介

58同城AI Lab隶属TEG技术工程平台群,成立于2018年5月,部门前身为TEG智能推荐部,目前部门规模为60人左右,包括产品、后端、算法、数据开发人员。
AI Lab旨在推动AI技术在58同城的落地,打造AI中台能力,以提高前台业务人效、收入和用户体验。
部门介绍,具体见:58同城AI Lab部门介绍
持续招聘,具体见:58同城AI Lab招聘产品经理、开发工程师

欢迎关注部门微信公众号:58AILab

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存